失败模式 ③
(。•́︿•̀。)
(´;ω;`)
DONE !
过早标记功能完成 (;一_一)
False Completion
(`・ω・´)
代码写完了 (。♥‿♥。)
(ノ◕ヮ◕)ノ
(╯°□°)╯
Agent 做了什么 写代码 ✓ DONE 写完 → 直接标完成 测试?验证?—— 全跳过 正确流程 写代码 测试验证 完成 端到端测试 完整功能链路验证 真实环境运行 非假设条件验证 边界条件 异常和极端情况 需求满足度 逐项对照检查 VS
不测试 · 不验证 (; ̄Д ̄)
Agent 跳过了什么 (・・ ) ?
(¬‿¬)
(;一_一)
写代码 ✓ 完成 端到端测试 ✕ 跳过 环境验证 ✕ 跳过 边界覆盖 ✕ 跳过 Agent 跳过了全部验证环节 DONE 假完成 三个关键验证阶段 — 全部被跳过
写完 做完 (;へ:)
(。ŏ_ŏ)
表面 vs 真相 (⊙_⊙)
(・o・)
(。ŏ﹏ŏ)
processOrder.js DONE ✓ 1 function processOrder () { 2 // 核心逻辑 ✓ 已写 3 getData(); 4 transform(); ↓ 以下全部缺失 ↓ 5 // 错误处理 ✗ 没写 6 // 边界条件 ✗ 没写 7 // 并发安全 ✗ 没写 8 // 输入校验 ✗ 没写 9 } 已写 3 行 缺失 4 项 表面 能跑 核心逻辑 ✓ 隐藏问题 错误处理缺失 边界条件遗漏 并发安全隐患 输入校验缺失 全部被忽略 ≈ 30% ≈ 70%
看起来能跑 到处是隐藏 Bug (;´Д`)
(´-ω-`)
隐藏 Bug 蔓延 (;一_一)
(╯°□°)╯︵
(。ŏ_ŏ)
模块 A 模块 B BUG 模块 C 模块 D 模块 E 模块 F 部署 Bug 出现 蔓延 全面爆发
一个未测试的 Bug,感染整个系统 (;´Д`)
(´;ω;`)
时间代价 (´-ω-`)
(;へ:)
(。ŏ_ŏ)
Agent 花的时间 写代码 1x VS 用户修复时间 定位问题 理解代码 修复 Bug 回归测试 补写缺失 3~5x N倍 时间成本
用户花几倍时间自己修 (;´Д`)
(´;ω;`)
失败模式 ③ 一句话总结 (;一_一)
(。•́︿•̀。)
(`・ω・´)
代码写完 标记 "完成" 🐛 跳过测试验证 隐藏 Bug 遍布 用户被迫 花 N 倍时间修
能跑 能用 (。♥‿♥。)
写完代码只是开始,验证通过才是完成
(ノ◕ヮ◕)ノ*:・゚✧
(´-ω-`)